Contextualisation automatique de Tweets à partir de Wikipédia
نویسندگان
چکیده
RÉSUMÉ. Les réseaux sociaux sont au centre des communications sur internet et une grande partie des échanges communautaires se fait à travers eux. Parmi eux, l’apparition de Twitter a donné lieu à la création d’un nouveau type de partage d’informations où les messages sont limités à 140 caractères. Les utilisateurs de ce réseau s’expriment donc succinctement, souvent en temps réel à partir d’un smartphone, et la teneur des messages peut parfois être difficile à comprendre sans contexte. Nous proposons dans cet article une méthode permettant de contextualiser automatiquement des Tweets en utilisant des informations provenant directement de l’encyclopédie en ligne Wikipédia, avec comme but final de répondre à la question : « De quoi parle ce Tweet ? ». Nous traitons ce problème comme une approche de résumé automatique où le texte à résumer est composé d’articles Wikipédia liés aux différentes informations exprimées dans un Tweet. Nous explorons l’influence de différentes méthodes de recherche d’articles liés aux Tweets, ainsi que de plusieurs caractéristiques utiles pour la sélection des phrases formant le contexte. Nous évaluons notre approche en utilisant la collection de la tâche Tweet Contextualization d’INEX 2012 et donnons un aperçu sur ce qui caractérise une phrase importante pour déterminer le contexte d’un Tweet.
منابع مشابه
Mesures d'informativité et de lisibilité pour un cadre d'évaluation de la contextualisation de tweets
RÉSUMÉ. Cet article s’intéresse à l’évaluation de la contextualisation de tweets. La contextualisation est définie comme un résumé permettant de remettre en contexte un texte qui, de par sa taille, ne contient pas l’ensemble des éléments qui permettent à un lecteur de comprendre son contenu. Nous définissons un cadre d’évaluation pour la contextualisation de tweets généralisable à d’autres text...
متن کاملTweet Contextualization Approach Based on Wikipedia and Dbpedia
Bound to 140 characters, tweets are short and not written maintaining formal grammar and proper spelling. These spelling variations increase the likelihood of vocabulary mismatch and make them difficult to understand without context. This paper falls under the tweet contextualization task that aims at providing, automatically, a summary that explains a given tweet, allowing a reader to understa...
متن کاملCross-lingual and generic text categorization (Apprentissage d'une classification thématique générique et cross-langue à partir des catégories de la Wikipédia) [in French]
متن کامل
La structure thème-rhème pour l'ordonnancement de documents en recherche d'information
RÉSUMÉ. La recherche d’information fait souvent l’hypothèse que les documents pertinents sont ”à propos de” la requête; la requête est ainsi supposée refléter le besoin d’information de l’utilisateur de façon appropriée. La plupart des moteurs de recherche fait l’hypothèse que le fait d’être ”à propos de” peut être mesuré par l’appariement des termes du document et ceux de la requête selon une ...
متن کاملTraduction automatique statistique à partir de corpus comparables : application aux couples de langues arabe-français
The present research aims to exploit comparable corpora for Statistical Machine Translation (SMT). First, a hybrid approach based on statistical and linguistics-based information is proposed for bilingual terminology extraction from Wikipedia documents. Then, we propose a hybrid approach based on length and dictionary model for the alignment of the United Nations (UN) corpus at the sentence lev...
متن کامل